from config import HF_ENDPOINT
from llama_index.core.node_parser import SimpleNodeParser
from llama_index.readers.web import TrafilaturaWebReader


print(f'load data,config:{HF_ENDPOINT}')
docs = TrafilaturaWebReader().load_data(["https://baike.baidu.com/item/ChatGPT/62446358",
                                         "https://baike.baidu.com/item/恐龙/139019"])


#创建文档切割器
print('init parser')
node_parser = SimpleNodeParser.from_defaults(chunk_size=1024)
base_nodes = node_parser.get_nodes_from_documents(docs)
print(f'end:{base_nodes}')